[2023年9月27日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Data Contract 101
Data Contractについて、歴史や実例を交えて基礎を解説する記事が出ていました。
定義方法としてYAMLがふさわしい理由や、Open StandardとしてYAMLの構造を統一しておくことのメリットについても述べられています。
Data Mesh: Should you adopt it?
分散管理型でデータ基盤を開発運用するデータメッシュについての基本と、導入している企業の例が述べられた記事が出ていました。
Netflix、LinkedIn、Uber、といった日本でもよく聞く企業がデータメッシュを導入しているようですね。
Principles of Data layers in Data Platform
データ基盤を構築する際様々なレイヤー分けを行ってデータを管理すると思いますが、包括的に各レイヤーでどんな加工を行いどんなデータを格納するのかまとめられた記事が出ていました。
Data Vault(この記事では主にRaw Vault部分)、3NF、Dimensional Modeling、One Big Table、それぞれのモデリング手法についてどのレイヤーで使うかが図と文章でわかりやすくまとまっています。
この記事に載っているモデリング手法をすべて採用するのもありだと思いますが学習・運用コストもかかってくるため、データ活用の目的に沿って必要なモデリング手法を選んで随所に採用していくのが良いと思います。
Unit Testing in Data Engineering: A Practical Guide
2023年7月の記事ではあるのですが、データエンジニアリングにおけるUnit Test(単体テスト)を、Pythonやdbt含むSQLでどのように実装するかまとめられた記事が出ていました。
個人的に、dbt_utils.expression_is_true
をちゃんと知らなかったので、dbtでぱぱっと単体テストを行うには便利な機能だなと感じました。
11 Data Security Mistakes You Should Never Make
ALTR社のブログより、データセキュリティについて決してしてはいけない11個のミスについて述べられた記事が出ていました。
パスワードポリシーに始まり、データの分類に沿ったアクセス制御やマスキング、バックアップやDR対応、従業員の教育、と幅広い観点でやってはいけないこととやるべきことが記述されています。
Data Extract/Load
Fivetran
Fivetranで最短1分毎の同期が可能になりました
Fivetranではこれまで最短5分毎の同期が可能でしたが、先日のアップデートで最短1分毎の同期が可能になりました!
設定方法や使用時の注意事項について以下のブログでまとめていますので、ぜひご覧ください。
Data Warehouse/Data Lakehouse
Snowflake
Streamlitの開発と実行がSnowsight上でできるように ※パブリックプレビュー
Streamlitを用いたデータアプリケーションの開発と、開発したアプリケーションの実行がSnowflakeのUIであるSnowsight上でできるようになりました。
私も早速試してブログにしています。よければご覧ください。
Streamlitを用いたデータ生成アプリ「FrostyGen」について
Streamlitを用いたデータ生成アプリ「FrostyGen」についての解説記事が出ていました。
下記のリンク先からGitHubリポジトリへのリンクもあるため、そこからコードをコピーすすればすぐに試すことができます。
私も早速試していてブログにしています。こちらも参考になると嬉しいです。
SnowflakeでData Meshをどのように導入するか
phData社より、SnowflakeでData Meshをどのように導入するかまとめられた記事が出ていました。
ドメインを分けた上で、アカウントを分けるのか、同一アカウント内でデータベースを分けるのか、などクローンやデータシェアリングも用いてどのように実装するのが良いのかが包括的に述べられています。
2023年8月にリリースされた機能のまとめ記事
Snowflakeの公式ブログより、2023年8月にリリースされた機能のまとめ記事が出ていました。
個人的には、MarketplaceでConnector系のNative Appsがリリースされ始めたのが気になります。特にMatillionではGoogleスプレッドシートのコネクタが提供されたようです。(使用するにはリクエストが必要)
MotherDuck/DuckDB
DuckDB 0.9.0がリリース
DuckDBの最新バージョンとして、0.9.0がリリースされました。
各種パフォーマンスやストレージ効率の改善をはじめとし、extensionとしてApache Icebergに対応などが追加されたようです。
Semantic Layer
Cube
Cubeで定義されたSemantic LayerをTableauから参照可能に
CubeはSemantic Layerを構築できるサービスですが、TableauからCudeで定義されたSemantic Layerを参照できるようになりました!
下記のリンク先から、実際にCube Cloudでモデルを定義し、Tableau CloudとTableau Desktopから参照しているデモ動画も見ることが出来ます。
Data Application
Streamlit
Notion上の情報に対して問い合わせできるチャットボットアプリの構築
Streamlitのブログにおいて、Notion上の情報に対して問い合わせできるチャットボットアプリの構築記事が出ていました。
これは余談ですが、Streamlitではないのですが弊社でもNotionの情報を読み取りSlack上で問い合わせができるアプリケーションを実装しています!こちらも参考になれば幸いです。
Business Intelligence
Looker
Looker 23.16のリリースノート
Looker 23.16のリリースノートが出ていました。
大きい新機能は特になく、細かい機能追加や修正が多い印象ですね。
ThoughtSpot
Lookerで定義されたSemantic LayerをThoughtSpotで参照する方法
ThoughtSpotのブログにおいて、Lookerで定義されたSemantic LayerをThoughtSpotで参照する方法について書かれた記事が出ていました。
ブログ上のGifを見ると同義語(シノニム・エイリアス)の定義をThoughtSpot上で行っているので、この同義語の定義をLooker上で行えるとより汎用性高く自然言語での検索ができそうと感じました。(現在Lookerには同義語の定義機能がないので悩ましいですが…)
Evidence
$2.1Mの資金調達とクラウド版である「Evidence Cloud」を発表
Business Intelligence as CodeのサービスをOSSとしてリリースしていた「evidence」が、$2.1Mの資金調達を行い併せてクラウド版も発表しました。
OSS版については日本の方も検証して記事を出しているため、どんなサービスか知りたい場合にはこちらも参考になると思います。
Data Catalog
Secoda
Secoda社がSeries Aで1400万ドルを調達
Secoda社がSeries Aで1400万ドルを調達したことを発表しました。
加えて新しくモニタリング機能をSecodaに実装したことを発表しました。ブログ上の画像を見る限り、日々のデータロードされたレコード数から異常を検知するなどが出来そうです。
Select Star
2023年8月に行われたProduct Forumのハイライト記事
2023年8月末にSelect StarがProduct Forumを開催し、最新の製品開発状況と将来のビジョンについて紹介していました。その上で、このProduct Forumのハイライトをまとめた記事が出ていました。
記事を見るとSelect Starの新機能として、AI documentation機能やSelect Starで定義したドキュメントをdbtにSyncする機能を発表しているようです。
Data Activation (Reverse ETL)
Hightouch
HightouchがG2のReverse ETLの分野でNo.1を獲得
HightouchがG2のReverse ETLの分野でNo.1を獲得しました。この記事を読む限りは、2022年秋にReverse ETLのカテゴリが出来て以来、ずっとNo.1のようです。
Splits機能の活用方法をまとめたブログ
Hightouch社のブログより、Hightouch上でAudienceとしてセグメントを切ったユーザーの一覧を、更に一定の割合で分割して別の媒体にデータ連携できるSplits機能の活用方法をまとめたブログが出ていました。
Data Quality・Data Observability
Monte Carlo
Monte CarloがG2のData Observability分野で2四半期連続でNo.1を獲得
Monte CarloがG2のData Observability分野で2四半期連続でNo.1を獲得しました。
評価されている点としては、Easiest to Do Business With, Database Monitoring (Enterprise)
やMost Implementable, Database Monitoring (Enterprise)
など、Monte Carloの導入の手軽さなどが評価されているようです。